
Google เปิดตัว Gemini 2.5 Computer Use Model — AI ควบคุมหน้าจอได้เหมือนมนุษย์
ข่าวสาร Ai | .., 11 ตุลาคม 2568 | มาใหม่
Google เปิดตัว “Gemini 2.5 Computer Use Model” โมเดล AI ที่ใช้คอมพิวเตอร์ได้เหมือนมนุษย์
Gemini 2.5 ก้าวใหม่ของ AI ที่ “ใช้เครื่องคอมพิวเตอร์เองได้”
Google โดยทีม DeepMind เปิดตัวโมเดลใหม่ในตระกูล Gemini ชื่อ “Gemini 2.5 Computer Use Model” ซึ่งสามารถควบคุมหน้าจอคอมพิวเตอร์ได้โดยตรงเหมือนมนุษย์ — ทั้งการคลิก พิมพ์ข้อความ และเลื่อนหน้าจอผ่าน GUI (Graphical User Interface) ถือเป็นก้าวสำคัญที่ AI เริ่มเข้าใจ “บริบทของหน้าจอ” และทำงานแทนผู้ใช้จริงได้
วิธีการทำงานของโมเดล
Gemini 2.5 รับข้อมูลจาก ภาพหน้าจอ (Screenshot), URL ปัจจุบัน, และ ประวัติการกระทำก่อนหน้า (Action History) เพื่อวิเคราะห์และส่งออกคำสั่งในรูปแบบ Function Call เช่น “คลิกปุ่ม Login” หรือ “พิมพ์ข้อความในช่องค้นหา” จากนั้นระบบจะส่งภาพหน้าจอใหม่กลับมาให้โมเดลวิเคราะห์ต่ออย่างต่อเนื่อง — สร้างวงจรการทำงานอัตโนมัติที่ “เรียนรู้จากการลงมือทำ”
ศักยภาพเหนือคู่แข่งใน Benchmark หลายชุด
Gemini 2.5 ถูกทดสอบกับชุดข้อมูล Online-Mind2Web, WebVoyager, และ AndroidWorld ผลลัพธ์แสดงให้เห็นว่าโมเดลนี้มีความแม่นยำ ความเร็วตอบสนอง และความยืดหยุ่นสูงกว่าโมเดลอื่นอย่างชัดเจน โดยเฉพาะเมื่อใช้งานบนเว็บเบราว์เซอร์
ระบบความปลอดภัยขั้นสูงจาก Google
Google เสริมฟีเจอร์ Per-Step Safety Service เพื่อตรวจสอบทุกขั้นตอนก่อนที่ AI จะคลิกหรือพิมพ์จริง ป้องกันการกระทำที่เสี่ยง เช่น การลบข้อมูลหรือข้ามระบบ CAPTCHA นอกจากนี้ นักพัฒนายังสามารถตั้งค่า System Instructions ให้โมเดลปฏิเสธคำสั่งบางอย่างหรือรอการยืนยันจากผู้ใช้ก่อนดำเนินการ
การใช้งานภายในและอนาคตของ Gemini 2.5
โมเดลนี้ได้ถูกผนวกเข้ากับหลายโปรเจกต์ของ Google เช่น Project Mariner, ระบบทดสอบอัตโนมัติใน Firebase Testing Agent, และ AI Mode ใน Google Search ที่ช่วยให้ AI กด ค้นหา และตอบสนองแทนผู้ใช้ได้ทันที
เป้าหมาย: ผู้ช่วยอัจฉริยะที่ “ใช้คอมแทนมนุษย์” ได้จริง
เป้าหมายระยะยาวของ Google คือให้ Gemini 2.5 กลายเป็นผู้ช่วยที่สามารถทำงานแทนมนุษย์ได้เต็มรูปแบบ เช่น เขียนอีเมล เปิดไฟล์ หรือกรอกฟอร์ม โดยไม่ต้องสร้าง API เฉพาะทางอีกต่อไป
สรุป
Gemini 2.5 คือก้าวใหญ่ของ “Computer-Use AI” ที่เปลี่ยนจาก “AI ที่ตอบข้อความ” สู่ “AI ที่ลงมือทำงานบนหน้าจอจริง” ซึ่งอาจปฏิวัติวงการผู้ช่วยอัจฉริยะ (AI Agents) และทำให้ระบบอัตโนมัติในอนาคตทรงพลังและใช้งานง่ายกว่าที่เคย